Arbitrary style transfer (AST) transfers arbitrary artistic styles onto content images. Despite the recent rapid progress, existing AST methods are either incapable or too slow to run at ultra-resolutions (e.g., 4K) with limited resources, which heavily hinders their further applications. In this paper, we tackle this dilemma by learning a straightforward and lightweight model, dubbed MicroAST. The key insight is to completely abandon the use of cumbersome pre-trained Deep Convolutional Neural Networks (e.g., VGG) at inference. Instead, we design two micro encoders (content and style encoders) and one micro decoder for style transfer. The content encoder aims at extracting the main structure of the content image. The style encoder, coupled with a modulator, encodes the style image into learnable dual-modulation signals that modulate both intermediate features and convolutional filters of the decoder, thus injecting more sophisticated and flexible style signals to guide the stylizations. In addition, to boost the ability of the style encoder to extract more distinct and representative style signals, we also introduce a new style signal contrastive loss in our model. Compared to the state of the art, our MicroAST not only produces visually superior results but also is 5-73 times smaller and 6-18 times faster, for the first time enabling super-fast (about 0.5 seconds) AST at 4K ultra-resolutions. Code is available at https://github.com/EndyWon/MicroAST.
translated by 谷歌翻译
事实证明,视觉变压器(VIT)是有效的,可以通过大规模图像数据集训练2D图像理解任务;同时,作为一条单独的曲目,在对3D视觉世界进行建模时,例如体素或点云。但是,随着希望变压器能够成为异质数据的“通用”建模工具的越来越希望,到目前为止,用于2D和3D任务的VIT已经采用了截然不同的架构设计,这些设计几乎是不可传输的。这引起了一个雄心勃勃的问题:我们可以缩小2D和3D VIT体系结构之间的差距吗?作为一项试点研究,本文证明了使用标准的2D VIT体系结构了解3D视觉世界的有吸引力的承诺,仅在输入和输出水平上只有最小的定制而不会重新设计管道。为了从其2D兄弟姐妹构建3D VIT,我们将贴片嵌入和令牌序列“充气”,并配有旨在匹配3D数据几何形状的新位置编码机制。与高度自定义的3D特定设计相比,所得的“极简主义” 3D VIT(名为Simple3D Former)在流行的3D任务(例如对象分类,点云分割和室内场景检测)上表现出色。因此,它可以作为新3D VIT的强大基准。此外,我们注意到,除了科学的好奇心外,追求统一的2D-3D VIT设计具有实际相关性。具体而言,我们证明了Simple3D Former自然能够从大规模逼真的2D图像(例如Imagenet)中利用预先训练的重量的财富,可以插入以增强“免费” 3D任务性能。
translated by 谷歌翻译
面姿势估计是指通过单个RGB图像预测面部取向的任务。这是一个重要的研究主题,在计算机视觉中具有广泛的应用。最近已经提出了基于标签的分布学习(LDL)方法进行面部姿势估计,从而实现了有希望的结果。但是,现有的LDL方法有两个主要问题。首先,标签分布的期望是偏见的,导致姿势估计。其次,将固定的分布参数用于所有学习样本,严重限制了模型能力。在本文中,我们提出了一种各向异性球形高斯(ASG)的LDL方法进行面部姿势估计。特别是,我们的方法在单位球体上采用了球形高斯分布,该分布不断产生公正的期望。同时,我们引入了一个新的损失功能,该功能使网络可以灵活地学习每个学习样本的分布参数。广泛的实验结果表明,我们的方法在AFLW2000和BIWI数据集上设置了新的最新记录。
translated by 谷歌翻译
与基于离散网格的表示相比,通过基于坐标的深层完全连接网络表示视觉信号在拟合复杂的细节和求解逆问题方面有优势。但是,获得这种连续的隐式神经表示(INR)需要对信号测量值进行繁琐的人均培训,这限制了其实用性。在本文中,我们提出了一个通用的INR框架,该框架通过从数据收集中学习神经隐式词典(NID)来实现数据和培训效率,并将INR表示为词典的基础采样的功能组合。我们的NID组装了一组基于坐标的子网,这些子网已调整为跨越所需的函数空间。训练后,可以通过求解编码系数立即,稳健地获取看不见的场景表示形式。为了使大量网络优化,我们借用了从专家的混合物(MOE)借用这个想法,以设计和训练我们的网络,以稀疏的门控机制。我们的实验表明,NID可以将2D图像或3D场景的重建提高2个数量级,而输入数据少98%。我们进一步证明了NID在图像浇筑和遮挡清除中的各种应用,这被认为是香草INR的挑战。我们的代码可在https://github.com/vita-group/neural-implitic-dict中找到。
translated by 谷歌翻译
神经辐射场(NERF)通过通过地面真相监督差异渲染多视图图像来回归神经参数化场景。但是,当插值新颖的观点时,NERF通常会产生不一致和视觉上不平滑的几何结果,我们认为这是可见和看不见的观点之间的概括差距。卷积神经网络的最新进展表明,随机或学到的先进的强大数据增强有望增强分布和分布外的概括。受此启发,我们提出了增强的NERF(Aug-nerf),这首先将强大的数据增强功能带入正规化NERF培训。特别是,我们的提议学会了将最坏情况的扰动无缝融合到NERF管道的三个不同级别,并包括(1)输入坐标,以模拟图像捕获中的不精确的摄像机参数; (2)中间特征,以平滑固有特征歧管; (3)预先渲染的输出,以说明多视图图像监督中的潜在降解因子。广泛的结果表明,Aug-nerf在新型视图合成(高达1.5dB PSNR增益)和基础几何重建中有效地提高了NERF性能。此外,得益于三级增强的隐含平稳先验,Aug-nerf甚至可以从严重损坏的图像中恢复场景,这是一个高度挑战性的环境,以前没有被隔离。我们的代码可在https://github.com/vita-group/aug-nerf中找到。
translated by 谷歌翻译
估计路径的旅行时间是智能运输系统的重要主题。它是现实世界应用的基础,例如交通监控,路线计划和出租车派遣。但是,为这样的数据驱动任务构建模型需要大量用户的旅行信息,这与其隐私直接相关,因此不太可能共享。数据所有者之间的非独立和相同分布的(非IID)轨迹数据也使一个预测模型变得极具挑战性,如果我们直接应用联合学习。最后,以前关于旅行时间估算的工作并未考虑道路的实时交通状态,我们认为这可以极大地影响预测。为了应对上述挑战,我们为移动用户组引入GOF-TTE,生成的在线联合学习框架以进行旅行时间估计,这是我)使用联合学习方法,允许在培训时将私人数据保存在客户端设备上,并设计设计和设计。所有客户共享的全球模型作为在线生成模型推断实时道路交通状态。 ii)除了在服务器上共享基本模型外,还针对每个客户调整了一个微调的个性化模型来研究其个人驾驶习惯,从而弥补了本地化全球模型预测的残余错误。 %iii)将全球模型设计为所有客户共享的在线生成模型,以推断实时道路交通状态。我们还对我们的框架采用了简单的隐私攻击,并实施了差异隐私机制,以进一步保证隐私安全。最后,我们对Didi Chengdu和Xi'an的两个现实世界公共出租车数据集进行了实验。实验结果证明了我们提出的框架的有效性。
translated by 谷歌翻译
旨在用自然语言和谐地与人类交流的智能对话体系对于促进人工智能时代的人机互动的发展非常出色。有了逐渐复杂的人类计算机交互要求(例如,多模式输入,时间敏感性),传统的基于文本的对话系统很难满足对更加生动和方便的交互的需求。因此,视觉背景增强对话系统(VAD)有可能通过感知和理解多模式信息(即图像或视频中的视觉上下文,文本对话历史记录)与人类进行交流,已成为主要的研究范式。 VAD受益于视觉和文本上下文之间的一致性和互补性,具有产生引人入胜和背景感知响应的潜力。为了描述VAD的开发,我们首先表征VAD的概念和独特功能,然后介绍其通用系统体系结构以说明系统工作流程。随后,对一些研究挑战和代表性作品进行了详细研究,然后进行了权威基准摘要。我们通过提出一些开放问题和有前途的VAD研究趋势来结束本文,例如,在跨模式对话环境下,人机对话的认知机制以及知识增强的跨模式语义互动。
translated by 谷歌翻译
由于物联网(IoT)技术的快速开发,许多在线Web应用程序(例如Google Map和Uber)估计移动设备收集的轨迹数据的旅行时间。但是,实际上,复杂的因素(例如网络通信和能量限制)使以低采样率收集的多个轨迹。在这种情况下,本文旨在解决稀疏场景中的旅行时间估计问题(TTE)和路线恢复问题,这通常会导致旅行时间的不确定标签以及连续采样的GPS点之间的路线。我们将此问题提出为不进行的监督问题,其中训练数据具有粗糙的标签,并共同解决了TTE和路线恢复的任务。我们认为,这两个任务在模型学习过程中彼此互补并保持这种关系:更精确的旅行时间可以使路由更好地推断,从而导致更准确的时间估计)。基于此假设,我们提出了一种EM算法,以替代E估计通过E步中通过弱监督的推断路线的行进时间,并根据M步骤中的估计行进时间来检索途径,以稀疏轨迹。我们对三个现实世界轨迹数据集进行了实验,并证明了该方法的有效性。
translated by 谷歌翻译
在本文中,我们介绍了纹理改革器,一个快速和通用的神经基础框架,用于使用用户指定的指导进行交互式纹理传输。挑战在三个方面:1)任务的多样性,2)引导图的简单性,以及3)执行效率。为了解决这些挑战,我们的主要思想是使用由i)全球视图结构对准阶段,ii)局部视图纹理细化阶段和III)的新的前馈多视图和多级合成程序。效果增强阶段用相干结构合成高质量结果,并以粗略的方式进行细纹细节。此外,我们还介绍了一种新颖的无学习视图特定的纹理改革(VSTR)操作,具有新的语义地图指导策略,以实现更准确的语义引导和结构保存的纹理传输。关于各种应用场景的实验结果展示了我们框架的有效性和优越性。并与最先进的交互式纹理转移算法相比,它不仅可以实现更高的质量结果,而且更加显着,也是更快的2-5个数量级。代码可在https://github.com/endywon/texture --reformer中找到。
translated by 谷歌翻译
图表神经网络(GNN)基于故障诊断(FD)近年来收到了越来越多的关注,因为来自来自多个应用域的数据可以有利地表示为图。实际上,与传统的FD方法相比,这种特殊的代表性表格导致了卓越的性能。在本次审查中,给出了GNN,对故障诊断领域的潜在应用以及未来观点的简单介绍。首先,通过专注于它们的数据表示,即时间序列,图像和图形,回顾基于神经网络的FD方法。其次,引入了GNN的基本原则和主要架构,注意了图形卷积网络,图注意网络,图形样本和聚合,图形自动编码器和空间 - 时间图卷积网络。第三,通过详细实验验证基于GNN的最相关的故障诊断方法,结论是基于GNN的方法可以实现良好的故障诊断性能。最后,提供了讨论和未来的挑战。
translated by 谷歌翻译